Reporte de IA

Logo FisioFind

FISIO FIND - REPORTE DE IA

Ficha del documento

Nombre del Proyecto: FISIO FIND
Número de Grupo: Grupo 6
Entregable: #SPRINT 2
Miembros del grupo:
Alberto Carmona Sicre, Antonio Macías Ferrera, Benjamín Ignacio Maureira Flores, Francisco Capote García,
Daniel Alors Romero, Daniel Fernández Caballero, Daniel Ruiz López, Daniel Tortorici Bartús,
Daniel Vela Camacho, Delfín Santana Rubio, Guadalupe Ridruejo Pineda, Julen Redondo Pacheco,
Miguel Encina Martínez, Francisco Mateos Villarejo, Pablo Fernández Pérez, Ramón Gavira Sánchez,
Rafael Pulido Cifuentes.
Contribuidores: Daniel Fernández Caballero Daniel Ruiz López (autores)
Fecha de Creación: 27/03/2025
Versión: v1.0

Histórico de Modificaciones

Fecha	Versión	Realizada por	Descripción de los cambios
27/03/2025	v1.0	Daniel Fernández Caballero, Daniel Ruiz López	Elaboración de la primera versión del documento.

Introducción

En el marco del segundo Sprint, y tras la revisión intermedia del trabajo, se decidió incorporar una nueva métrica para optimizar la evaluación de la efectividad de la IA en función de los prompts utilizados. Esta nueva métrica corresponde al porcentaje de alucinaciones generadas por la IA, lo que permitirá obtener una visión más precisa sobre la calidad y fiabilidad de las conversaciones. Con esta actualización, las métricas establecidas para este sprint son las siguientes:

Calificación de conversaciones: evaluada en una escala de 1 a 5, refleja la calidad percibida de las respuestas de la IA.
Cantidad de prompts: número de interacciones empleadas en cada conversación, como indicador de su extensión.
Alucinaciones: porcentaje de respuestas erróneas o inventadas generadas por la IA, para medir su precisión.
Análisis estadístico: incluye el cálculo de promedios, desviaciones estándar y tendencias, con el fin de identificar patrones y áreas de mejora en el desempeño de la IA.

Esta evolución en las métricas busca proporcionar una evaluación más completa y detallada, enfocándose no solo en la satisfacción general y la duración de las interacciones, sino también en la exactitud de las respuestas generadas.

Prompts Utilizados

A continuación se presentan los distintos prompts evaluados junto con sus respectivas puntuaciones, cantidad de prompts y porcentaje de alucinaciones. Los datos se dividen entre la primera y segunda semana del Sprint para reflejar las diferencias en la implementación de las métricas. Cabe destacar que la métrica de alucinaciones no se registró durante la primera semana.

Primera semana

Prompt 1
- Puntuación: 5
- Prompts: 2
- Alucinaciones: No disponible
Prompt 2
- Puntuación: 4
- Prompts: 3
- Alucinaciones: No disponible
Prompt 3
- Puntuación: 4
- Prompts: 1
- Alucinaciones: No disponible
Prompt 4
- Puntuación: 5
- Prompts: 1
- Alucinaciones: No disponible
Prompt 5
- Puntuación: 3
- Prompts: 1
- Alucinaciones: No disponible
Prompt 6
- Puntuación: 4
- Prompts: 4
- Alucinaciones: No disponible
Prompt 7
- Puntuación: 3
- Prompts: 9
- Alucinaciones: No disponible

Segunda semana

Prompt 8
- Puntuación: 5
- Prompts: 10
- Alucinaciones: 0%
Prompt 9
- Puntuación: 4
- Prompts: 3
- Alucinaciones: 33%
Prompt 10
- Puntuación: 5
- Prompts: 5
- Alucinaciones: 0%
Prompt 11
- Puntuación: 5
- Prompts: 4
- Alucinaciones: 25%
Prompt 12
- Puntuación: 0
- Prompts: 4
- Alucinaciones: 100%
Prompt 13
- Puntuación: 4
- Prompts: 18
- Alucinaciones: 0%
Prompt 14
- Puntuación: 5
- Prompts: 7
- Alucinaciones: 0%
Prompt 15
- Puntuación: 5
- Prompts: 7
- Alucinaciones: 0%
Prompt 16
- Puntuación: 5
- Prompts: 13
- Alucinaciones: 0%
Prompt 17
- Puntuación: 4
- Prompts: 21
- Alucinaciones: 0%
Prompt 18
- Puntuación: 0
- Prompts: 11
- Alucinaciones: 100%
Prompt 19
- Puntuación: 0
- Prompts: 3
- Alucinaciones: 100%
Prompt 20
- Puntuación: 5
- Prompts: 3
- Alucinaciones: 0%
Prompt 21
- Puntuación: 5
- Prompts: 1
- Alucinaciones: 0%
Prompt 22
- Puntuación: 5
- Prompts: 31
- Alucinaciones: 0%

Análisis estadístico

En esta sección, realizaremos un análisis estadístico completo basado en las puntuaciones, el número de prompts y el porcentaje de alucinaciones de los 22 casos documentados en este reporte. Calcularemos medidas como el promedio, la desviación estándar, la distribución y las correlaciones entre las variables, para luego extraer conclusiones sobre el desempeño de la IA. Dado que la métrica de alucinaciones solo está disponible para la segunda semana (Prompts 8 al 22), su análisis se realizará por separado para esos 15 casos.

Datos iniciales

Los datos a analizar son los siguientes:

Puntuaciones (total, 22 casos): 5, 4, 4, 5, 3, 4, 3, 5, 4, 5, 5, 0, 4, 5, 5, 5, 4, 0, 0, 5, 5, 5
Número de prompts (total, 22 casos): 2, 3, 1, 1, 1, 4, 9, 10, 3, 5, 4, 4, 18, 7, 7, 13, 21, 11, 3, 3, 1, 31
Alucinaciones (segunda semana, 15 casos): 0%, 33%, 0%, 25%, 100%, 0%, 0%, 0%, 0%, 0%, 100%, 100%, 0%, 0%, 0%

Estos valores corresponden a los 22 prompts evaluados en este sprint, cada uno con su respectiva puntuación (escala de 1 a 5), cantidad de prompts utilizados y, para la segunda semana, el porcentaje de alucinaciones.

Análisis de las puntuaciones

1. Promedio (Media)

Para calcular el promedio de las puntuaciones, sumamos todos los valores y los dividimos entre el número total de casos, que es 22.

Suma de las puntuaciones:
5 + 4 + 4 + 5 + 3 + 4 + 3 + 5 + 4 + 5 + 5 + 0 + 4 + 5 + 5 + 5 + 4 + 0 + 0 + 5 + 5 + 5 = 85

Promedio:
85 ÷ 22 ≈ 3.86

El promedio de las puntuaciones es 3.86. Esto indica que, en general, las interacciones con la IA tienen un desempeño positivo, situándose por encima del punto medio de la escala (2.5 en un rango de 0 a 5).

2. Desviación estándar

La desviación estándar mide cuánto se alejan las puntuaciones del promedio, dando una idea de la dispersión. Primero calculamos la varianza.

Paso 1: Calcular la varianza

Restamos el promedio (3.86) a cada puntuación, elevamos al cuadrado, sumamos y dividimos entre 22:
(5 - 3.86)² = 1.2996
(4 - 3.86)² = 0.0196
(4 - 3.86)² = 0.0196
(5 - 3.86)² = 1.2996
(3 - 3.86)² = 0.7396
(4 - 3.86)² = 0.0196
(3 - 3.86)² = 0.7396
(5 - 3.86)² = 1.2996
(4 - 3.86)² = 0.0196
(5 - 3.86)² = 1.2996
(5 - 3.86)² = 1.2996
(0 - 3.86)² = 14.8996
(4 - 3.86)² = 0.0196
(5 - 3.86)² = 1.2996
(5 - 3.86)² = 1.2996
(5 - 3.86)² = 1.2996
(4 - 3.86)² = 0.0196
(0 - 3.86)² = 14.8996
(0 - 3.86)² = 14.8996
(5 - 3.86)² = 1.2996
(5 - 3.86)² = 1.2996
(5 - 3.86)² = 1.2996

Suma de las diferencias al cuadrado:
1.2996 + 0.0196 + 0.0196 + 1.2996 + 0.7396 + 0.0196 + 0.7396 + 1.2996 + 0.0196 + 1.2996 + 1.2996 + 14.8996 + 0.0196 + 1.2996 + 1.2996 + 1.2996 + 0.0196 + 14.8996 + 14.8996 + 1.2996 + 1.2996 + 1.2996 = 60.2288

Varianza:
60.2288 ÷ 22 ≈ 2.7377

Paso 2: Calcular la desviación estándar

Desviación estándar:
√2.7377 ≈ 1.65

La desviación estándar es aproximadamente 1.65, lo que indica una dispersión moderada. Las puntuaciones varían en promedio 1.65 puntos alrededor de la media de 3.86, reflejando cierta variabilidad debido a los valores extremos (0 y 5).

3. Distribución de las puntuaciones

Contamos cuántas veces aparece cada valor:

0: 3 veces (13.64%)
3: 2 veces (9.09%)
4: 6 veces (27.27%)
5: 11 veces (50.00%)

Observación: La puntuación más frecuente es 5 (50%), seguida de 4 (27.27%). Las puntuaciones altas (4 y 5) representan el 77.27% del total, pero los valores de 0 (13.64%) sugieren una polarización en el desempeño.

Análisis del número de prompts

1. Promedio (Media)

Sumamos todos los valores del número de prompts y dividimos entre 22.

Suma de los prompts:
2 + 3 + 1 + 1 + 1 + 4 + 9 + 10 + 3 + 5 + 4 + 4 + 18 + 7 + 7 + 13 + 21 + 11 + 3 + 3 + 1 + 31 = 142

Promedio:
142 ÷ 22 ≈ 6.45

El promedio del número de prompts es 6.45, indicando que las interacciones tienden a ser moderadamente largas, aunque hay una gran variabilidad.

2. Desviación estándar

Paso 1: Calcular la varianza

Restamos el promedio (6.45) a cada valor, elevamos al cuadrado, sumamos y dividimos entre 22:
(2 - 6.45)² = 19.8025
(3 - 6.45)² = 11.9025
(1 - 6.45)² = 29.7025
(1 - 6.45)² = 29.7025
(1 - 6.45)² = 29.7025
(4 - 6.45)² = 6.0025
(9 - 6.45)² = 6.5025
(10 - 6.45)² = 12.6025
(3 - 6.45)² = 11.9025
(5 - 6.45)² = 2.1025
(4 - 6.45)² = 6.0025
(4 - 6.45)² = 6.0025
(18 - 6.45)² = 133.4025
(7 - 6.45)² = 0.3025
(7 - 6.45)² = 0.3025
(13 - 6.45)² = 42.9025
(21 - 6.45)² = 211.7025
(11 - 6.45)² = 20.7025
(3 - 6.45)² = 11.9025
(3 - 6.45)² = 11.9025
(1 - 6.45)² = 29.7025
(31 - 6.45)² = 602.7025

Suma:
19.8025 + 11.9025 + 29.7025 + 29.7025 + 29.7025 + 6.0025 + 6.5025 + 12.6025 + 11.9025 + 2.1025 + 6.0025 + 6.0025 + 133.4025 + 0.3025 + 0.3025 + 42.9025 + 211.7025 + 20.7025 + 11.9025 + 11.9025 + 29.7025 + 602.7025 = 1397.45

Varianza:
1397.45 ÷ 22 ≈ 63.52

Paso 2: Calcular la desviación estándar

Desviación estándar:
√63.52 ≈ 7.97

La desviación estándar es 7.97, mostrando una alta dispersión debido a la amplia gama de valores (de 1 a 31).

3. Rango

Mínimo: 1 prompt
Máximo: 31 prompts
Rango = 31 - 1 = 30

Observación: El rango amplio y la desviación estándar alta confirman una gran variabilidad en la longitud de las interacciones.

Análisis de las alucinaciones (segunda semana)

1. Promedio (Media)

Sumamos los porcentajes de alucinaciones de la segunda semana (15 casos) y dividimos entre 15:
0 + 33 + 0 + 25 + 100 + 0 + 0 + 0 + 0 + 0 + 100 + 100 + 0 + 0 + 0 = 358

Promedio:
358 ÷ 15 ≈ 23.87

El promedio de alucinaciones es 23.87%, indicando que, en promedio, casi una cuarta parte de las respuestas en la segunda semana podrían ser erróneas.

2. Desviación estándar

Paso 1: Calcular la varianza

Restamos el promedio (23.87) a cada valor, elevamos al cuadrado, sumamos y dividimos entre 15:
(0 - 23.87)² = 569.7769
(33 - 23.87)² = 83.3569
(0 - 23.87)² = 569.7769
(25 - 23.87)² = 1.2769
(100 - 23.87)² = 5806.2769
(0 - 23.87)² = 569.7769
(0 - 23.87)² = 569.7769
(0 - 23.87)² = 569.7769
(0 - 23.87)² = 569.7769
(0 - 23.87)² = 569.7769
(100 - 23.87)² = 5806.2769
(100 - 23.87)² = 5806.2769
(0 - 23.87)² = 569.7769
(0 - 23.87)² = 569.7769
(0 - 23.87)² = 569.7769

Suma:
569.7769 + 83.3569 + 569.7769 + 1.2769 + 5806.2769 + 569.7769 + 569.7769 + 569.7769 + 569.7769 + 569.7769 + 5806.2769 + 5806.2769 + 569.7769 + 569.7769 + 569.7769 = 24791.16

Varianza:
24791.16 ÷ 15 ≈ 1652.74

Paso 2: Calcular la desviación estándar

Desviación estándar:
√1652.74 ≈ 40.66

La desviación estándar es 40.66, reflejando una dispersión muy alta debido a la polarización entre 0% y 100%.

3. Distribución de las alucinaciones

0%: 10 veces (66.67%)
25%: 1 vez (6.67%)
33%: 1 vez (6.67%)
100%: 3 veces (20.00%)

Observación: La mayoría (66.67%) no tiene alucinaciones, pero un 20% tiene alucinaciones totales (100%), mostrando una clara polarización.

Relación entre variables

1. Puntuaciones y número de prompts (22 casos)

∑x = 85, ∑y = 142, ∑xy = 5×2 + 4×3 + ... + 5×31 = 672, ∑x² = 385, ∑y² = 1490
r = [22 × 672 - 85 × 142] ÷ √([22 × 385 - 85²] × [22 × 1490 - 142²])
r = [14784 - 12070] ÷ √([8470 - 7225] × [32780 - 20164]) ≈ 2714 ÷ √(1245 × 12616) ≈ 0.22

Resultado: Correlación 0.22 (positiva débil). Más prompts tienden ligeramente a puntuaciones más altas, pero la relación es débil.

2. Puntuaciones y alucinaciones (segunda semana, 15 casos)

∑x = 61, ∑y = 358, ∑xy = 5×0 + 4×33 + ... + 5×0 = 258, ∑x² = 301, ∑y² = 25858
r = [15 × 258 - 61 × 358] ÷ √([15 × 301 - 61²] × [15 × 25858 - 358²])
r = [3870 - 21838] ÷ √([4515 - 3721] × [387870 - 128164]) ≈ -17968 ÷ √(794 × 259706) ≈ -0.88

Resultado: Correlación -0.88 (negativa fuerte). Más alucinaciones se asocian fuertemente con puntuaciones más bajas.

3. Número de prompts y alucinaciones (segunda semana, 15 casos)

∑x = 133, ∑y = 358, ∑xy = 10×0 + 3×33 + ... + 31×0 = 1358, ∑x² = 1889, ∑y² = 25858
r = [15 × 1358 - 133 × 358] ÷ √([15 × 1889 - 133²] × [15 × 25858 - 358²]} ≈ -0.11

Resultado: Correlación -0.11 (negativa muy débil). No hay relación clara entre prompts y alucinaciones.

Tendencias y observaciones

Puntuaciones: Promedio de 3.86, con predominio de 5 (50%), pero valores de 0 indican inconsistencias.
Número de prompts: Promedio de 6.45, con alta variabilidad (desviación 7.97), desde 1 hasta 31.
Alucinaciones: Promedio de 23.87% en la segunda semana, con 66.67% sin alucinaciones y 20% con 100%.
Relaciones: Puntuaciones y prompts tienen correlación débil (0.22); puntuaciones y alucinaciones, fuerte negativa (-0.88); prompts y alucinaciones, casi nula (-0.11).

Conclusión del análisis estadístico

Puntuaciones: Promedio de 3.86 y desviación de 1.65 reflejan un desempeño bueno pero variable.
Número de prompts: Promedio de 6.45 y alta desviación (7.97) muestran interacciones diversas en longitud.
Alucinaciones: Promedio de 23.87% y desviación de 40.66 indican polarización en la precisión.
Relación: Las alucinaciones impactan negativamente las puntuaciones (-0.88), mientras que la cantidad de prompts tiene un efecto leve (0.22).

Aprobado por

Scrum Master: Antonio Macías Ferrera

FISIO FIND - REPORTE DE IA

Introducción​

Prompts Utilizados​

Primera semana​

Segunda semana​

Análisis estadístico​

Datos iniciales​

Análisis de las puntuaciones​

1. Promedio (Media)​

2. Desviación estándar​

Paso 1: Calcular la varianza​

Paso 2: Calcular la desviación estándar​

3. Distribución de las puntuaciones​

Análisis del número de prompts​

1. Promedio (Media)​

2. Desviación estándar​

Paso 1: Calcular la varianza​

Paso 2: Calcular la desviación estándar​

3. Rango​

Análisis de las alucinaciones (segunda semana)​

1. Promedio (Media)​

2. Desviación estándar​

Paso 1: Calcular la varianza​

Paso 2: Calcular la desviación estándar​

3. Distribución de las alucinaciones​

Relación entre variables​

1. Puntuaciones y número de prompts (22 casos)​

2. Puntuaciones y alucinaciones (segunda semana, 15 casos)​

3. Número de prompts y alucinaciones (segunda semana, 15 casos)​

Tendencias y observaciones​

Conclusión del análisis estadístico​

Aprobado por​

Introducción

Prompts Utilizados

Primera semana

Segunda semana

Análisis estadístico

Datos iniciales

Análisis de las puntuaciones

1. Promedio (Media)

2. Desviación estándar

Paso 1: Calcular la varianza

Paso 2: Calcular la desviación estándar

3. Distribución de las puntuaciones

Análisis del número de prompts

1. Promedio (Media)

2. Desviación estándar

Paso 1: Calcular la varianza

Paso 2: Calcular la desviación estándar

3. Rango

Análisis de las alucinaciones (segunda semana)

1. Promedio (Media)

2. Desviación estándar

Paso 1: Calcular la varianza

Paso 2: Calcular la desviación estándar

3. Distribución de las alucinaciones

Relación entre variables

1. Puntuaciones y número de prompts (22 casos)

2. Puntuaciones y alucinaciones (segunda semana, 15 casos)

3. Número de prompts y alucinaciones (segunda semana, 15 casos)

Tendencias y observaciones

Conclusión del análisis estadístico

Aprobado por